Taller de periodismo de datos

Jaime Gutiérrez · Última actualización: marzo 2025

1 👋 Introducción

1.1 🛠 Nuestra caja de herramientas

Cuenta de
Gmail
Cuenta de
Datawrapper
Cuenta de
Flourish
Instalar
Tabula
Descargar
Table Capture

2 👷‍♀️ Metodología de trabajo

2.1 🚲 Caso práctico. Estaciones Sevici (I)

A partir de los datos de los aparcabicicletas del servicio municipal de Sevilla, Sevici, obtenidos en el portal de datos abiertos del Ayuntamiento, responde a las siguientes preguntas:

2.1.1 Descarga los datos e impórtalos en Google Sheets

Crea una hoja de cálculo nueva y ponle un nombre. Luego, importa los datos del csv en una hoja que llamaremos raw.

🔗 aparcabicicletas_sevici.csv

Importa el archivo desde: Archivo > Importar > Subir > (Selecciona o arrastra tu archivo)

  • Ubicación de importación -> Remplazar la hoja actual

  • Tipo de separador -> Detectar automáticamente

  • Convertir texto en número, fechas y formas -> No

2.1.2 Observa los datos y comprueba los encabezados

  1. Crea un duplicado trabajo de la hoja raw.
  2. Inmoviliza la primera fila para facilitar la visualización.
  3. Revisa los nombres de las columnas para comprobar si describen el contenido. ¿Qué ocurre con la columna LAYER? ¿Cómo lo solucuionmos?

Crea una columna nueva al final de la tabla con el nombre distrito. Por ahora, vamos a trasladar la información creando una igualdad entre columnas = B2.

*Consejo: utiliza un color en el encabezado para identificar las columnas de tratamiento de las que contienen los datos originales.

2.1.3 ¿Tienen todas las columnas el formato adecuado?

El siguiente paso es asegurarse de que las columnas tienen el formato adecuado: numérico, texto, fecha… Por ahora, vamos a ignorar las columnas de coordenadas. - ¿Qué les ocurre a las columnas NUMERO y AROS? ¿Son correctos los valores en todas las columnas? - ¿Es correcto el formato de CreationDate y EditDate?

A veces, las columnas numéricas se importan con un formato incorrecto. En este caso, aparece un apostrofe oculto (’) delante del número. La forma más fácil de resolver este problema es multiplicar los valores por 1.

Añade dos nuevas columnas y aplica la operación =C2*1 y =D2*1.

Para revisar que la operación se ha aplicado correctamente en todas las columnas, podemos ordenarla de menor a mayor. Así, los errores quedarán al final.

  • Si colocas el ratón en el lado derecho de la letra que identifica la columna numero, aparecerá una flecha. Al pinchar, se despliega un menú en el que podemos elegir entre Ordenar hoja A a la Z y Ordenar hoja Z a la A. Cuando la columna es numérica, esto equivale a de menor a mayor y de mayor a menor. Selecciona la primera opción, verás que el orden de esa columna reordena todas las filas.

  • Observa que el orden de los números es correlativo (1, 2, 3, 4…). Esto nos indica que el campo numero no es en realidad una cantidad, sino un recuento.

  • Sabiendo esto, podemos corregir los 17 errores finales, marcado con el código #VALUE!, sustituyendo la multiplicación por una igualdad entre columnas que traslade la información de original de NUMERO a nuestra columna de trabajo numero.

Las fechas de creación y edición aparecen en formato DD/M/YYYY HH:MM:SS. Vamos a separar la fecha y la hora usando la función SPLIT().

  • En una columna nueva, escribe =SPLIT(F2;" "). Esto nos dará como resultado tres columnas adicionales: fecha_creacion, hora_creacion y am_pm_creacion.

  • Repite el ejercicio para obtener fecha_edicion, hora_edicion y am_pm_edicion.

Ten en cuenta que, para consolidar los datos y asignarles un formato de fecha, debes copiar y pegar los valores sin fórmulas.

Para ello, copia las seis columnas con CTR. + C y pégalas en el mismo lugar con CTR. + SHIFT + C. Después, asegúrate de que las columnas fecha_creacion y fecha_edicion tienen formato fecha: selecciona Formato > Número > Fecha.

2.1.4 ¿Cuántos aparcabicis hay en la ciudad de Sevilla?

Como la numeración se interrumpe en el 619 y sabemos que la columna numero indica un recuento, podríamos hacer la cuenta manualmente: 619 + 17 = 636.

Sin embargo, es más recomendable usar los recuentos automáticos de Google Spreadsheet para responder a esta pregunta y evitar errores.

  1. Coloca el selector en la primera celda debajo del encabezado de la columna numero y, con la tecla SHIFT presionada, pulsa la flecha hacia abajo en el teclado . Esto seleccionará todas las celdas que estén rellenas de manera consecutiva en la dirección seleccionada.
  2. Con esta selección, verás que aparece un recuadro verde en la esquina inferior izquierda de la ventana. Si lo despliegas, verás un panel con recuentos y cálculos básicos como este.

¿A qué se debe la diferencia entre nuestra cuenta manual y el recuento de Google?

Si observas el número de filas de la tabla, verás que coincide con el recuento automático. (Ten en cuenta que no debes sumar el encabezado). Al revisar los números que creíamos ordenados, vemos que hay saltos: por ejemplo, del 133 al 135. Esto nos indica que nuestros 17 errores numéricos ocupan un lugar concreto en el listado.

2.1.5 ¿Cuántos aros para bicilcetas hay en Sevilla?

Repite los cálculos automáticos de Google Spreadsheet sobre la columna aros para obtener la suma total de aros.

  1. Coloca el selector en la primera celda debajo del encabezado de la columna aros y, con la tecla SHIFT presionada, pulsa la flecha hacia abajo en el teclado . Esto seleccionará todas las celdas que estén rellenas de manera consecutiva en la dirección seleccionada.
  2. Con esta selección, verás que aparece un recuadro verde en la esquina inferior izquierda de la ventana. Si lo despliegas, verás un panel con recuentos y cálculos básicos como este.

En Sevilla hay 3.073 aros para aparcar bicicletas.

2.1.6 ¿Cuál es el aparcabicis con más aros de Sevilla? ¿Y los que menos?

Reordena la columna aros de mayor a menor. Coloca el ratón en el lado derecho de la letra que identifica la columna que quieres ordenar y elige Ordenar hoja Z a la A en el desplegable.

  • El aparcabicicletas con más aros es el que tiene la ID 534. Está en el distrito ESTE y tiene 41 aros.

Repite el ejercicio seleccionando Ordenar hoja A a la Z o navega hasta el final de la tabla sin reordenar.

  • Los dos con menos aros son el 109 del distrito SUR y el 72 del distrito de MACARENA.

3 🧮 Tablas dinámicas: entrevista a los datos

Una tabla dinámica (pivot table) es una tabla-resumen que agrupa datos procedentes de otra tabla o base de datos de mayor tamaño.

Muestra los datos resumidos y ordenados de forma efectiva y comprensible.

Las tablas dinámicas son capaces de clasificar, contar, totalizar o dar la media de forma automática.

3.1 🚲 Caso práctico. Estaciones Sevici (II)

3.1.1 Crea una tabla dinámica para saber cuántos aparcabicis hay en cada distrito de Sevilla

¿Qué debes añadir a los campos Filas, Columnas, Valores y Filtros para responder obtener un resultado?

Para crear una tabla dinámica, selecciona toda la hoja de datos marcando el vértice superior hizquierdo de la tabla (a la izquierda de la columna A y encima de la fila 1). Esto asegura que todos nuestros datos estén dentro de la tabla dinámica.

A continuación elige Insertar > Tabla dinámica.

En el cuadro de diálogo Crear tabla dinámica verás varias cosas:

  • El Intervalo de datos con el que va a trabajar la tabla dinámica. Si has seleccionado toda la hoja, debería ser trabajo!1:1000.
  • También podrás elegir dónde quieres insertar la hoja. Por norma general, siempre elegimos Nueva hoja.

Al pulsar en Crear, Google Spreadsheet creará una hoja nueva, Tabla dinámica 1, en la que verás una tabla azul vacía. También aparece un panel lateral que nos servirá para trabajar con la tabla dinámica.

Renombra la hoja Tabla dinámica 1 como aparcabicis_distrito para poder identificarla en el futuro.

Si por cualquier motivo cierras este panel, siempre puedes volverlo a abrir en el incono del lapicero que aparece bajo la tabla dinámica.

  1. Añade la columna distrito como Filas

  2. Añade la columna numero como Valores y selecciona Sumar por > COUNTA para contar todos los registros que no están en blanco.

  3. Para evitar que la tabla dinámica muestre las columnas vacías, añade cualquier columna al campo Filtros y desmarca la opción (Vacío).

  4. Ordena los datos para encontrar fácilmente la respuesta: selecciona Orden > Descendente y Ordenar por > COUNTA de numero en las opciones de Filas.

CASCO_ANTIGUO es el distrito con mayor número absoluto de aparcabicis: 132

3.1.2 ¿Cuántos aros para aparcar bicicletas hay en cada distrito de Sevilla?

Repite el ejercicio anterior usando la columna aros como Valores. Ten en cuenta que, en este caso, no queremos hacer un recuento sino sumar las cantidades.

Para crear una tabla dinámica, selecciona toda la hoja de datos marcando el vértice superior hizquierdo de la tabla (a la izquierda de la columna A y encima de la fila 1). Esto asegura que todos nuestros datos estén dentro de la tabla dinámica.

A continuación elige Insertar > Tabla dinámica.

En el cuadro de diálogo Crear tabla dinámica verás varias cosas:

  • El Intervalo de datos con el que va a trabajar la tabla dinámica. Si has seleccionado toda la hoja, debería ser trabajo!1:1000.
  • También podrás elegir dónde quieres insertar la hoja. Por norma general, siempre elegimos Nueva hoja.

Al pulsar en Crear, Google Spreadsheet creará una hoja nueva, Tabla dinámica 2, en la que verás una tabla azul vacía. También aparece un panel lateral que nos servirá para trabajar con la tabla dinámica.

Renombra la hoja Tabla dinámica 2 como aros_distrito para poder identificarla en el futuro.

Si por cualquier motivo cierras este panel, siempre puedes volverlo a abrir en el incono del lapicero que aparece bajo la tabla dinámica.

  1. Añade la columna distrito como Filas

  2. Añade la columna aros como Valores y selecciona Sumar por > SUM para contar todos los registros que no están en blanco.

  3. Para evitar que la tabla dinámica muestre las columnas vacías, añade cualquier columna al campo Filtros y desmarca la opción (Vacío).

  4. Ordena los datos para encontrar fácilmente la respuesta: selecciona Orden > Descendente y Ordenar por > SUM de aros en las opciones de Filas.

CASCO_ANTIGUO también es el distrito con más aros para aparcar bicicletas de Sevilla: 747

3.1.3 ¿Es posible saber cuántos aros por aparcabici hay en cada distrito? ¿Cuál es el distrito con más aros por aparcabici?

Ten en cuenta que una tabla dinámica puede tener más de un elemento en cada uno de sus campos, incluido el campo Valores.

Para responder a esta pregunta, duplica la hoja aparcabicis_distrito para conservar esta tabla dinámica y renombra la nueva hoja como aros_aparcabicis_distrito.

  1. Abre el panel Editor de tablas dinámicas con el icono del lapicero que aparece debajo de la tabla.

  2. Añade la columna aros como Valores y selecciona Sumpar por > COUNTA para obtener el recuento de todos los campos rellenos.

  3. En una columna contigua, que llamaremos aros_distrito, puedes dividir el número de aros entre el total de aparcabicis de de cada distrito: =C2/B2.

OJO: esta operación está fuera de la tabla dinámica, por lo que, si seguimos trabajando, tendremos que hacerlo con cuidado de no romper la fórmula. Para recordarlo, pondremos el encabezado en un color distinto al azul.

  1. Si quieres reducir el número de decimales, puedes hacerlo seleccionando toda la columna y usar los atajos de Reducir/Aumentar decimales de la barra de herramientas.

CUIDADO: como la operación está fuera de la tabla dinámica, no podemos reordenar la tabla. Una forma de ver cuál es el valor más alto es aplicar un formato condicional a la columna aros_distrito desde Formato > Formato condicionalm eligiendo Escala de colores en el panel de Reglas de formato condicional.

En Sevilla hay una tasa de 5,48 aros por cada aparcabicicletas. ESTE es el distrito con la tasa más alta, con 8,02 aros por cada estación.

4 📊 Datawrapper

4.1 ¿Qué es Datawrapper?

Dataweapper es una herramienta online que permite crear tres tipos de visualizaciones:

  • Gráficos: desde barras, columnas o líneas a gráficos de flechas, diagramas de dispersión (scatterplots), pirámides de población, etc.

  • Mapas: de coropletas, de símbolos y localizadores.

  • Tablas: en las que se pueden incluir mini gráficos de líneas y barras o imágenes.

Para usar Datawrapper debes tener registrarte con un correo electrónico y una contraseña.

🔗 Ir al formulario de registro

4.2 🚲 Caso práctico. Estaciones Sevici (III)

4.2.1 Haz un gráfico que muestre cuál es el distrito de Sevilla con mayor número de aparcabicis

📊 Usa los datos de la tabla aros_aparcabicis_distrito y crea un gráfico de barras que esté ordenado.

¡Cuidado!

Ten en cuenta que no debes incluir la suma total de aparcabicis en tu gráfico, ya que eso distorsionará la escala de las barras.

Para crear nuestro primer gráfico en Datawrapper vamos a elegir la opción Crear nuevo... > Gráfico.

Paso 1. Cargar datos

  • En la ventana Cargar datos nos mantendremos en la opción por defecto: Copiar y pegar tabla de datos.

  • Ahora copiaremos nuestra tabla de datos mediante el atajo CTR. + C con cuidado de no seleccionar la fila Suama total.

  • Pegaremos la tabla que acabamos de copiar con CTR. + V donde pone Pega los datos que has copiado aquí....

  • Por último, pulsaremos en Continuar para avanzar al siguiente paso.

Paso 2. Verificar y describir

  • Revisa el formato de las columnas: negro cuando es texto y azul cuando es número.

  • Para que Datawrapper muestre un punto como separador de los miles (1.000), elige español (es-AR) en Configuración regional del resultado.

  • Avanza al siguiente paso pulsando Continuar.

Paso 3. Visualizar

En este apartado es en el que elegimos el tipo de gráfico que vamos a usar y donde aplicamos los estilos.

  • Por defecto, Datawrapper intenta encajar nuestros datos siempre en un gráfico de líneas. Elige la opción Gráfico de barras en Tipo de gráfico y avanza a la pestaña Mejorar.

  • Selecciona la columna que contiene los datos que quieres representar en el primer desplegable si no han aparecido por defecto.

  • Si las barras no aparecen ordenadas, pueder forzar el orden en el apartado Clasificación y agrupación > Organizar barras del panel Mejorar.

  • En la pestaña anotar, introduce un título para tu gráfico. Por ejemplo, “Número de aparcabicicletas Sevici en cada distrito de Sevilla”.

  • Indica la fuente de tus datos, “Portal de datos abiertos del Ayuntamiento de Sevilla”, en el campo Fuente de datos.

  • Incluye una firma para tu gráfico en Producido por.

  • En la pestaña Diseño puedes activar o desactivar la descarga de datos o aplicar un tema para tu gráfico, entre otras opciones.

  • Cuando hayas acabado de diseñar tu gráfico, avanza en el botón Continuar.

Paso 4. Publicar e integrar

Este apartado es el que permite publicar tu gráfico para compartirlo con el resto del mundo. Obtendrás tanto un enlace a la visualización como un código de inserción.

¿Qué pasa con los nombres de los distritos? ¿Cómo lo solucionamos?

Para limpiar los nombres de los distritos, puedes reasignarle un nombre a cada uno desde el apartado Visualizar de Datawrapper. Basta con hacer doble clic sobre cada nombre en el gráfico y escribir el nombre adecuado.

4.2.2 Aros por distrito y tasa de aros por aparcabici

Repite el ejercicio anterior para hacer un gráfico de barras con el número de aros por distrito y otro con la tasa de aros por aparcabici en cada distrito.

¿Qué diferencias observas entre ambos gráficos? ¿Cuál crees que es mejor para hacer un análisis? ¿Por qué?

El Casco antiguo pasa del primer al tercer lugar al observar una tasa. Este y Los Remedios muestran tasas menores, mientras que Cerro Amate aparece como el distrito con menos aros para bicicletas en términos absolutos.

La tasa nos indica que, aunque en el Casco antiguo hay más aparcabicicletas y aros, los vecinos de Este y Los Remedios encontrarán con más facilidad, a priori, un espacio para aparcar su bicicleta pública si deciden utilizarla.

SPOILER: más adelante veremos que esta tasa no es la mejor para analizar la implantación de aparcabicicletas en Sevilla.

5 🧠 Tu turno (I)

5.1 🌳 Árboles en Sevilla

A partir de los datos de los árboles que hay en los parques, calles y jardines de la ciudad de Sevilla, obtenidos en el portal de datos abiertos del Ayuntamiento, responde a las siguientes preguntas:

5.1.1 Descarga los datos e impórtalos en Google Sheets

Crea una hoja de cálculo nueva y ponle un nombre. Luego, importa los datos del csv en una hoja que llamaremos raw.

🔗 inventario_arboles_sevilla.csv

Importa el archivo desde: Archivo > Importar > Subir > (Selecciona o arrastra tu archivo)

  • Ubicación de importación -> Remplazar la hoja actual

  • Tipo de separador -> Detectar automáticamente

  • Convertir texto en número, fechas y formas -> No

5.1.2 Observa los datos y comprueba los encabezados

  1. ¿Qué ocurre al intentar crea un duplicado trabajo de la hoja raw? ¿Qué se puede hacer?

Al intentar duplicar la hoja, verás un mensaje como este: “Ha ocurrido un problema. Esta acción aumentará el número de celdas del libro por encima del límite de 10.000.000 celdas”.

Tenemos que trabajar desde la hoja RAW, con cuidado de no sobrepasar ese límite.

Importante: conserva el documento .csv a buen recaudo por si tienes que volver sobre tus pasos.

  1. Inmoviliza la primera fila para facilitar la visualización.
  2. Revisa los nombres de las columnas para comprobar si describen el contenido.

5.1.3 ¿Tienen todas las columnas el formato adecuado?

El siguiente paso es asegurarse de que las columnas tienen el formato adecuado: numérico, texto, fecha… También hay que revisar si están completas. Por ahora, vamos a ignorar las columnas de coordenadas.

¿Es correcto el formato de ALTURA y PERIMETRO? ¿Qué tenemos que hacer?

A veces, las columnas numéricas se importan con un formato incorrecto. En este caso, aparece un apostrofe oculto (’) delante del número. La forma más fácil de resolver este problema es multiplicar los valores por 1.

Añade dos nuevas columnas y aplica la operación =J2*1 y =K2*1.

Para revisar que la operación se ha aplicado correctamente en todas las columnas, podemos ordenarla de menor a mayor. Así, los errores quedarán al final.

  • Si colocas el ratón en el lado derecho de la letra que identifica la columna, aparecerá una flecha. Al pinchar, se despliega un menú en el que podemos elegir entre Ordenar hoja A a la Z y Ordenar hoja Z a la A. Cuando la columna es numérica, esto equivale a de menor a mayor y de mayor a menor. Selecciona la primera opción, verás que el orden de esa columna reordena todas las filas.

¿Qué les ocurre a las columnas CODIGO, y FASE_EDAD?

Estas columnas mezclan valores numéricos y texto. Sin un diccionario o glosario que explique el significado de esos códigos, no podemos trabajar con ellas.

¿Qué les ocurre a las columnas DISTRITO, BARRIO, U__GESTION, ESPECIE, TIPOLOGIA, TIPO_MARRA y Comprobar? ¿Cómo lo solucionamos?

Las columnas mencionadas tienen celdas en blanco. Esto indica que la información para estos campos no está disponible o se desconoce en algunos casos.

Como después usaremos esas colúmnas en tablas dinámicas, podemos completar los espacios vacíos con el término que mejor se adapte a cada campo: Desconocido, Sin información, Otros

Usa Datos > Crear un filtro para mostrar todas las celdas vacías en cada columna y rellenar los huecos.

Recuerda poner en un color distinto el encabezado para saber qué hemos hecho modificaciones sobre los datos originales.

La solución anterior no se pude aplicar a la columna PLANTACION ¿Por qué? ¿Qué podemos hacer?

La columna PLANTACION muestra el año de plantación, que es un dato numérico. Al tratarse de una fecha o marca temporal, no es recomendable completarlo con texto, ya que eso impediría realizar operaciones o cálculos más adelante.

En este caso, podemos hacer dos cosas:

  • Dejar las celdas vacías, aunque esto nos obligará a recordar que esas celdas no tienen información.

  • Rellenar las celdas con un año que esté claramente fuera del rango. Esto nos permitirá filtrar los datos para no tener en cuenta los campos desconocidos en nuestros cálculos, sin perder el formato.

Recuerda que, además, debes resolver el formato numérico como has hecho en ALTURA y PERIMETRO.

5.1.4 ¿Cuántos árboles hay en la ciudad de Sevilla? ¿Cuál es su altura media? ¿Y su perímetro medio?

Utiliza los recuentos automáticos de Google Spreadsheet para responder a esta pregunta y evitar errores.

  1. Coloca el selector en la primera celda debajo del encabezado de la columna altura y, con la tecla SHIFT presionada, pulsa la flecha hacia abajo en el teclado . Esto seleccionará todas las celdas que estén rellenas de manera consecutiva en la dirección seleccionada.

  2. Con esta selección, verás que aparece un recuadro verde en la esquina inferior izquierda de la ventana. Si lo despliegas, verás un panel con recuentos y cálculos básicos en el que podrás consultar el recuento de filas de la tabla.

Repite el ejercicio en la columna perímetro

5.1.5 ¿Dónde está el árbol más alto de de Sevilla? ¿De qué especie es? ¿Cuánto mide? ¿En qué año se plantó y quién lo gestiona? ¿Podría ser el foco para un reportaje local?

Reordena la columna altura de mayor a menor. Coloca el ratón en el lado derecho de la letra que identifica la columna que quieres ordenar y elige Ordenar hoja Z a la A en el desplegable.

  • El árbol más alto de Sevilla está en el barrio de Palmete, del distrito de Cerro - Amate. Es un brachychiton populneus. Se desconoce su año de plantación y está gestionado por Z.V. Parterres C/Afecto-Indulgencia.

5.1.6 Analiza los árboles de Sevilla por barrios usando tablas dinámicas

¿Cuál es el barrio con más árboles de Sevilla? ¿Y el que tiene menos?

Para crear una tabla dinámica, selecciona toda la hoja de datos marcando el vértice superior hizquierdo de la tabla (a la izquierda de la columna A y encima de la fila 1). Esto asegura que todos nuestros datos estén dentro de la tabla dinámica.

A continuación elige Insertar > Tabla dinámica.

En el cuadro de diálogo Crear tabla dinámica verás varias cosas:

  • El Intervalo de datos con el que va a trabajar la tabla dinámica. Si has seleccionado toda la hoja, debería ser trabajo!1:1000.
  • También podrás elegir dónde quieres insertar la hoja. Por norma general, siempre elegimos Nueva hoja.

Al pulsar en Crear, Google Spreadsheet creará una hoja nueva, Tabla dinámica 1, en la que verás una tabla azul vacía. También aparece un panel lateral que nos servirá para trabajar con la tabla dinámica.

Renombra la hoja Tabla dinámica 1 como barrios para poder identificarla en el futuro.

Si por cualquier motivo cierras este panel, siempre puedes volverlo a abrir en el incono del lapicero que aparece bajo la tabla dinámica.

  1. Añade la columna BARRIO como Filas

  2. Añade la columna OBJECTID como Valores y selecciona Sumar por > COUNTA para contar todos los registros que no están en blanco.

  3. Para evitar que la tabla dinámica muestre las columnas vacías, añade cualquier columna al campo Filtros y desmarca la opción (Vacío).

  4. Ordena los datos para encontrar fácilmente la respuesta: selecciona Orden > Descendente y Ordenar por > COUNTA de OBJECTID en las opciones de Filas.

Colores, Entreparques es el barrio con mayor número absoluto de árboles: 16.929. Arbol Gordo es el que menos árboles tiene. Solo 36.

¿En qué distritos están estos barrios? ¿Son los distritos con más árboles?

Recuerda que puedes añadir más de una columna en los campos de la tabla dinámica.

Para responder a esta pregunta, añade la columna DISTRITO como Filas.

🎉 ¡SORPRESA! Esto también sirve para conocer el total de árboles de cada distrito

Para responder a la segunda pregunta, tienes que ordenar también los distritos. Selecciona Orden > Descendente y Ordenar por > COUNTA de OBJECTID en las opciones de Filas de DISTRITO.

Colores, Entreparques es el barrio con más árboles y está en el distrito con más arbolado de Sevilla: **Este - Alcosa - Torreblanca*.

Arbol Gordo es el barrio con menos árboles. Pero el distrito del que forma parte, San Pablo - Santa Justa, no es el que menos arbolado acumula. Macarena, Nervión, Casco Antiguo y Los Remedios tienen menos.

Esto podría dar para un reportaje sobre el acceso a zonas verdes en la ciudad, ¿verdad?

📊 Haz un gráfico de barras en Datawrapper donde cada barra sea un barrio y éstas estén ordenadas y agrupadas por distrito

Pista

Revisa las opciones de Clasificación y agrupación en el panel Mejorar para hacer los grupos.

0. Prepara los datos

Antes de llevar los datos a Datawrapper, hay que hacer algunos ajustes en la tabla dinámica de la hoja barrios.

  • En el apartado Filas, desmarca la opción Mostrar totales para las columnas DISTRITO y BARRIO. Esto oculta los totales de la tabla que pueden distorsionar nuestra visualización si los llevamos al gráfico.

  • En Filas > DISTRITO, activa la opción Repetir las etiquetas de las filas. Así, el nombre de cada distrtio se repetirá tantas veces como barrios contenga.

  • Añade la columna BARRIOS a Filtros y desmarca (Vacío) y Desconocido para no llevar al gráfico ni los valores desconocidos ni los campos vacíos.

Paso 1. Cargar datos

  • Selecciona Crear nuevo... > Gráfico

  • En la ventana Cargar datos nos mantendremos en la opción por defecto: Copiar y pegar tabla de datos.

  • Ahora copiaremos nuestra tabla de datos mediante el atajo CTR. + C.

  • Pegaremos la tabla que acabamos de copiar con CTR. + V donde pone Pega los datos que has copiado aquí....

  • Por último, pulsaremos en Continuar para avanzar al siguiente paso.

Paso 2. Verificar y describir

  • Revisa el formato de las columnas: negro cuando es texto y azul cuando es número.

  • Para que Datawrapper muestre un punto como separador de los miles (1.000), elige español (es-AR) en Configuración regional del resultado.

  • Avanza al siguiente paso pulsando Continuar.

Paso 3. Visualizar

En este apartado es en el que elegimos el tipo de gráfico que vamos a usar y donde aplicamos los estilos.

  • Por defecto, Datawrapper intenta encajar nuestros datos siempre en un gráfico de líneas. Elige la opción Gráfico de barras en Tipo de gráfico y avanza a la pestaña Mejorar.

  • Selecciona la columna que contiene los datos que quieres representar en el primer desplegable si no han aparecido por defecto.

  • Si las barras no aparecen ordenadas, pueder forzar el orden en el apartado Clasificación y agrupación > Organizar barras del panel Mejorar.

  • Para hacer los grupos, activa Agrupar barras por columna en la sección Clasificación y agrupación del panel Mejorar. Luego, elige la columna por la que quieres agrupar: DISTRITO.

  • En la pestaña anotar, introduce un título para tu gráfico. Por ejemplo, “Número de árboles en cada barrio de Sevilla”.

  • Indica la fuente de tus datos, “Portal de datos abiertos del Ayuntamiento de Sevilla”, en el campo Fuente de datos.

  • Incluye una firma para tu gráfico en Producido por.

  • En la pestaña Diseño puedes activar o desactivar la descarga de datos o aplicar un tema para tu gráfico, entre otras opciones.

  • Cuando hayas acabado de diseñar tu gráfico, avanza en el botón Continuar.

Paso 4. Publicar e integrar

Este apartado es el que permite publicar tu gráfico para compartirlo con el resto del mundo. Obtendrás tanto un enlace a la visualización como un código de inserción.

5.1.7 ¿En qué año se plantaron más árboles en Sevilla desde 2013?

Crea una tabla dinámica con la columna plantacion como Filas y la columna OBJECTID como Valores.

Para crear una tabla dinámica, selecciona toda la hoja de datos marcando el vértice superior hizquierdo de la tabla (a la izquierda de la columna A y encima de la fila 1). Esto asegura que todos nuestros datos estén dentro de la tabla dinámica.

A continuación elige Insertar > Tabla dinámica.

En el cuadro de diálogo Crear tabla dinámica verás varias cosas:

  • El Intervalo de datos con el que va a trabajar la tabla dinámica. Si has seleccionado toda la hoja, debería ser trabajo!1:1000.
  • También podrás elegir dónde quieres insertar la hoja. Por norma general, siempre elegimos Nueva hoja.

Al pulsar en Crear, Google Spreadsheet creará una hoja nueva, Tabla dinámica 1, en la que verás una tabla azul vacía. También aparece un panel lateral que nos servirá para trabajar con la tabla dinámica.

Renombra la hoja Tabla dinámica 1 como plantacion para poder identificarla en el futuro.

Si por cualquier motivo cierras este panel, siempre puedes volverlo a abrir en el incono del lapicero que aparece bajo la tabla dinámica.

  1. Añade la columna plantacion como Filas

  2. Añade la columna OBJECTID como Valores y selecciona Sumar por > COUNTA para contar todos los registros que no están en blanco.

  3. Para evitar que la tabla dinámica muestre las columnas vacías y los árboles de los que se desconoce el año de plantación, añade la columna plantacion al campo Filtros y desmarca las opciones (Vacío) y la que hayas usado como año fuera del rango 2013-2024.

  4. Ordena los datos para encontrar fácilmente la respuesta: selecciona Orden > Descendente y Ordenar por > COUNTA de OBJECTID en las opciones de Filas.

2022 fue el año en el que más árboles se plantaron en Sevilla: 2.671

📊 Haz un gráfico de líneas en Datawrapper con estos datos

0. Prepara los datos

Como para responder a la pregunta anterior hemos reordenado la tabla dinámica plantacion de mayor a menor, tenemos que volver a ordenarla por año.

  • Elige Orden > Ascendente y Ordenar por > Plantación en el apartado Filas.

Paso 1. Cargar datos

  • Selecciona Crear nuevo... > Gráfico

  • En la ventana Cargar datos nos mantendremos en la opción por defecto: Copiar y pegar tabla de datos.

  • Ahora copiaremos nuestra tabla de datos mediante el atajo CTR. + C con cuidado de no seleccionar la fila Suama total.

  • Pegaremos la tabla que acabamos de copiar con CTR. + V donde pone Pega los datos que has copiado aquí....

  • Por último, pulsaremos en Continuar para avanzar al siguiente paso.

Paso 2. Verificar y describir

  • Revisa el formato de las columnas: negro cuando es texto y azul cuando es número.

  • Para que Datawrapper muestre un punto como separador de los miles (1.000), elige español (es-AR) en Configuración regional del resultado.

  • Avanza al siguiente paso pulsando Continuar.

Paso 3. Visualizar

En este apartado es en el que elegimos el tipo de gráfico que vamos a usar y donde aplicamos los estilos.

  • Por defecto, Datawrapper intenta encajar nuestros datos siempre en un gráfico de líneas, por lo que no tendremos que seleccionar otra opción en Tipo de gráfico. Avanza a la pestaña Mejorar.

  • El Eje horizontal tiene que ser una fecha o un año. En nuestro caso, eso se encuentra en la columna plantacion, que debe estar ordenada.

  • El Eje vertical mostrará tantas líneas como columnas tenga nuestra table. En este caso, solo hay una: COUNTA de OBJECTID.

  • En el resto de opciones de customización puedes cambiar el color o el estilo de la línea. Pero presta atención al apartado Descripciones emergentes del panel Mejorar. Aquí podemos elegir cómo se mostrará la información del tooltip. Como estamos trabajando con años, selecciona 2015, 2016 en Fechas (horizontal axis). La sección Valores (vertical axis) puede quedarse como está por defecto, ya que nuestros datos no tienen decimales.

  • En la pestaña anotar, introduce un título para tu gráfico. Por ejemplo, “Número de árboles plantados en Sevilla cada año”.

  • Indica la fuente de tus datos, “Portal de datos abiertos del Ayuntamiento de Sevilla”, en el campo Fuente de datos.

  • Incluye una firma para tu gráfico en Producido por.

  • En la pestaña Diseño puedes activar o desactivar la descarga de datos o aplicar un tema para tu gráfico, entre otras opciones.

  • Cuando hayas acabado de diseñar tu gráfico, avanza en el botón Continuar.

Paso 4. Publicar e integrar

Este apartado es el que permite publicar tu gráfico para compartirlo con el resto del mundo. Obtendrás tanto un enlace a la visualización como un código de inserción.

¿Te has fijado en que el nombre de la línea aparece como COUNTA de OBJECTID? Esto parece poco legible y estético para el gráfico. ¿Cómo lo solucionamos?

Al tratarse de un gráfico con una sola línea, puede arreglarse de dos formas.

  1. Cambiando el nombre de la columna en el apartado Verificar y describir. Por ejemplo, por Nº árboles.

  2. Mostrando el último dato de la curva. Esto puede activarse en el panel Mejorar del apartado Visualizar. En Customize line activa Etiqueta > Nada y Mostrar etiquetas de valor. Luego, desactiva Primera en Final de la línea.

¿Cómo puedo destacar el valor más alto de la curva?

Pista

Revisa las opciones del panel Anotar en la sección Visualizar de tu gráfico.

La mayoría de los gráficos de Datawrapper permiten añadir anotaciones sobre el gráfico. Encontrarás esta opción en Visualizar > Anotar > Anotaciones de texto > Añadir anotación de texto.

5.1.8 ¿Cuál es la especie más común en el arbolado de Sevilla? ¿Cuántas especies tienen un solo ejemplar en la ciudad?

Crea una tabla dinámica con la columna ESPECIE como Filas y la columna OBJECTID como Valores.

Para crear una tabla dinámica, selecciona toda la hoja de datos marcando el vértice superior hizquierdo de la tabla (a la izquierda de la columna A y encima de la fila 1). Esto asegura que todos nuestros datos estén dentro de la tabla dinámica.

A continuación elige Insertar > Tabla dinámica.

En el cuadro de diálogo Crear tabla dinámica verás varias cosas:

  • El Intervalo de datos con el que va a trabajar la tabla dinámica. Si has seleccionado toda la hoja, debería ser trabajo!1:1000.
  • También podrás elegir dónde quieres insertar la hoja. Por norma general, siempre elegimos Nueva hoja.

Al pulsar en Crear, Google Spreadsheet creará una hoja nueva, Tabla dinámica 1, en la que verás una tabla azul vacía. También aparece un panel lateral que nos servirá para trabajar con la tabla dinámica.

Renombra la hoja Tabla dinámica 1 como especie para poder identificarla en el futuro.

Si por cualquier motivo cierras este panel, siempre puedes volverlo a abrir en el incono del lapicero que aparece bajo la tabla dinámica.

  1. Añade la columna plantacion como Filas

  2. Añade la columna OBJECTID como Valores y selecciona Sumar por > COUNTA para contar todos los registros que no están en blanco.

  3. Para evitar que la tabla dinámica muestre las columnas vacías y los árboles de los que se desconoce el año de plantación, añade cualquier columna al campo Filtros y desmarca la opción (Vacío).

  4. Ordena los datos para encontrar fácilmente la respuesta: selecciona Orden > Descendente y Ordenar por > COUNTA de OBJECTID en las opciones de Filas.

Para recontar las especies con un solo ejemplar, basta con recontar las filas con un único ejemplar en la tabla dinámica.

La especie más común en el arbolado de sevilla es el Citrus aurantium, con 51.214 ejemplares. Hay 59 especies que solo tienen un ejemplar en la ciudad.

📊 Crea un gráfico de anillo con las cinco especies de árboles más frecuentes en la ciudad de Sevilla y agrupa el resto una sexta categoría llamada “Otros”

Pista

Datawrapper permite definir los grupos sin necesidad de modificar los datos de la tabla dinámica en la sección Agrupación del panel Mejorar.

Paso 1. Cargar datos

  • Selecciona Crear nuevo... > Gráfico

  • En la ventana Cargar datos nos mantendremos en la opción por defecto: Copiar y pegar tabla de datos.

  • Ahora copiaremos nuestra tabla de datos mediante el atajo CTR. + C. Ten cuidado de no copiar la suma total, porque eso distorsionaría el gráfico.

  • Pegaremos la tabla que acabamos de copiar con CTR. + V donde pone Pega los datos que has copiado aquí....

  • Por último, pulsaremos en Continuar para avanzar al siguiente paso.

Paso 2. Verificar y describir

  • Revisa el formato de las columnas: negro cuando es texto y azul cuando es número.

  • Para que Datawrapper muestre un punto como separador de los miles (1.000), elige español (es-AR) en Configuración regional del resultado.

  • Avanza al siguiente paso pulsando Continuar.

Paso 3. Visualizar

En este apartado es en el que elegimos el tipo de gráfico que vamos a usar y donde aplicamos los estilos.

  • Por defecto, Datawrapper intenta encajar nuestros datos siempre en un gráfico de líneas. Elige la opción Gráfico de anillo en Tipo de gráfico y avanza a la pestaña Mejorar.

  • En Fragmentos del anillo, selecciona la columna que contiene los datos que quieres representar si no ha aparecido por defecto.

  • Mantén la opción Ordenar por > De mayor a menor para que el gráfico se ordene en el sentido de las agujas del reloj.

  • En Color del fragmento puedes personalizar los colores del gráfico. Si los grupos son partes de un todo, es recomendable ir de tonos más oscuros a más claros de un mismo color.

  • Escribe el Número máximo de fragmentos que va a tener el gráfico en el apartado Agrupación.

  • En la pestaña anotar, introduce un título para tu gráfico. Por ejemplo, “Especies de árbol más comunes en la ciudad de Sevilla”.

  • Indica la fuente de tus datos, “Portal de datos abiertos del Ayuntamiento de Sevilla”, en el campo Fuente de datos.

  • Incluye una firma para tu gráfico en Producido por.

  • En la pestaña Diseño puedes activar o desactivar la descarga de datos o aplicar un tema para tu gráfico, entre otras opciones.

  • Cuando hayas acabado de diseñar tu gráfico, avanza en el botón Continuar.

Paso 4. Publicar e integrar

Este apartado es el que permite publicar tu gráfico para compartirlo con el resto del mundo. Obtendrás tanto un enlace a la visualización como un código de inserción.

6 🔢 Tasas y valores relativos (I)

Una tasa expresa la relación entre dos magnitudes.

Algunas tasas comunes son: porcentaje respecto al total, porcentaje respecto al PIB o tasa por población.

6.1 🚲 Caso práctico. Estaciones Sevici (IV)

6.1.1 Calcula el porcentaje de aparcabicicletas en cada distrito de Sevilla

Las tablas dinámicas permiten hacer algunos cálculos básicos sobre los datos que contienen con la opción Campo calculado

  1. Abre el Editor de tablas dinámicas en tu hoja aparcabicis_distrito.

  2. En el apartado Valores, selecciona Añadir > Campo calculado.

  3. Crea la fórmula del porcentaje en el apartado Fórmula. En este caso, vamos a dividir el recuento de cada distrito, CONTARA(NUMERO), entre el total de aparcabicicletas, 561, y lo multiplicaremos todo por 100 (*100) para convertirlo en porcentaje =(CONTARA(NUMERO)/561)*100.

  4. Selecciona la opción Personalizado en el apartado Sumar por.

  5. Renombra el Campo colculado como por_aparcabicis haciendo doble clic en el encabezado de la columna de la tabla dinámica.

Revisa las opciones de Mostrar como en el Campo calculado. ¿Se te ocurre alguna forma más simple de calcular el porcentaje?

El apartado Mostrar como nos permite expresar un valor absoluto de distintas formas relativas respecto a los valores de la tabla dinámica:

  • Predeterminado muestra el resultado de la fórmula que hayamos aplicado

  • Porcentaje de la fila toma el resultado de la fórmula y lo expresa como porcentaje respecto a la fila en la que se encuentra (en horizontal)

  • Porcentaje de la columna toma el resultado de la fórmula y lo expresa como porcentaje respecto a todos los elementos de la columna calculada (en vertical)

  • Porcentaje de la suma total toma el resultado de la fórmula y lo divide entre la suma total de la columna. Luego lo multiplica por 100 para obtener un porcentaje.

En este caso, nos interesa dividir cada recuento por la suma total, por lo que podemos aplicar Porcentaje de la suma total.

📊 Traslada los porcentajes a un gráfico de barras. ¿Es la opción más adecuada?

Datawrapper permite duplicar gráficos para generar nuevas visualizaciones conservando los estilos y anotaciones de la anterior.

Paso 0. Duplica el gráfico

Localiza tu gráfico de barras con los aparcabicis por distrito en Datawrapper y selecciónalo. Se abrirá una vista previa del gráfico similar a esta:

En la parte derecha verás el botón Duplicar. Al pulsarlo, se abrirá un nuevo gráfico con la palabra “(Copia)” en el título.

Selecciona el paso 1 Cargar datos para modificar los datos del gráfico.

Paso 1. Cargar datos

  • En la ventana Cargar datos nos mantendremos en la opción por defecto: Copiar y pegar tabla de datos.

  • Ahora copiaremos nuestra tabla de datos mediante el atajo CTR. + C con cuidado de no seleccionar la fila Suama total.

  • Pegaremos la tabla que acabamos de copiar con CTR. + V donde pone Pega los datos que has copiado aquí....

  • Por último, pulsaremos en Continuar para avanzar al siguiente paso.

Paso 2. Verificar y describir

  • Revisa el formato de las columnas: negro cuando es texto y azul cuando es número.

  • Para que Datawrapper muestre un punto como separador de los miles (1.000), elige español (es-AR) en Configuración regional del resultado.

  • 👀 OJO. ¿Recuerdas que modificamos los nombres de los distritos a mano en este gráfico? Como estamos trabajando con un gráfico duplicado, verás que las celdas de la columna distrito aparecen marcadas con un triángulo amarillo. Esto indica que el contenido de la celda ha sido mdificado respecto al dato original.

  • Para evitar trasladar errores de un gráfico a otro, pulsa el botón Revertir cambios... en la esquina inferior derecha de la pantalla.

  • Avanza al siguiente paso pulsando Continuar.

Paso 3. Visualizar

  • Como ahora nuestra fuente de datos tiene dos columnas (COUNTA de numero y por_aparcabicis), Datawrapper selecciona por defecto la primera. Para mostrar los porcentajes, debes cambiarlo en el desplegable Barras > Seleccionar columna del panel Mejorar

  • Verás que los números aparecen sin el símbolo del tanto por ciento. Para solucionarlo, elige 0.[0]% en el desplegable Formato numérico del apartado Etiquetas. El número de ceros entre corchetes representa el número de decimales que se muestran al redondear.

  • Si las barras no aparecen ordenadas, pueder forzar el orden en el apartado Clasificación y agrupación > Organizar barras del panel Mejorar.

  • En la pestaña anotar, modifica el título del gráfico para eliminar la indicación de que es un duplicado. Por ejemplo, “Porcentaje de aparcabicicletas Sevici en cada distrito de Sevilla”.

  • Como es un duplicado, verás que los campos Fuente de datos y Producido por ya están rellenos y, en este caso, no hace falta cambiarlos.

  • Cuando hayas acabado de diseñar tu gráfico, avanza en el botón Continuar.

Paso 4. Publicar e integrar

Este apartado es el que permite publicar tu gráfico para compartirlo con el resto del mundo. Obtendrás tanto un enlace a la visualización como un código de inserción.

Observa el gráfico que acabas de hacer. ¿Es la mejor elección para este tipo de dato? ¿Por qué?

Cuando los datos forman parte de un todo, el gráfico debe expresar esa circunstancia.

Vuelve al panel Tipo de gráfico y elige alguna de las siguientes opciones:

  • Gráfico de círculo o gráfico de anillo. Esta es la modificación más simple. Basta con seleccionar la columna adecuada en Mejorar > Fragmentos del círculo para obtener un buen resultado.

  • Columnas apiladas. Para poder usar este gráfico, tenemos que deshacernos de la columna COUNTA de numero. Ve a Verificar y describir selecciona la columna completa y marca Ocultar columna de la visualización en las opciones laterales.

  • Barras apiladas. Para poder usar este gráfico hay que llevar al apartado Cargar datos una única columna, que puede ser simplemente el recuento en términos absolutos. Copia y pega las columnas distrito y COUNTA de numero desde tu tabla dinámica. Luego, recupera esa columna para la visualización desmarcando la opción Ocultar columna de la visualización en Verificar y describir y pivota los datos con el botón Intercambiar filas y columnas (transponer) que aparece debajo de la tabla. Esto nos dará una única barra apilada con los valores absolutos, pero puedes convertirlos en porcentajes con la opción Apilar porcentajes en el apartado Aspecto del panel Mejorar en Vusualizar. Recuerda cambiar el nombre de la columna COUNTA de numero, ya que ahora es visible en el gráfico.

6.1.2 Incorpora el dato de población a la hoja de trabajo

Descarga el archivo poblacion_distritos_sevilla.csv e impórtalo en tu documento de trabajo de Google Drive. Luego, usa la función BUSCARV() para unir las cifras de población a la hoja trabajo.

🔗 poblacion_distritos_sevilla.csv

La función BUSCARV() es una función de búsqueda y referencia. Se usa para realizar la búsqueda vertical de un valor en la columna del extremo izquierdo de una tabla o selección y devolver el valor en la misma fila. Estos son sus argumentos:

  • valor_búsqueda -> Es el campo que vamos a buscar en la tabla. Puede ser un texto entre comillas, un número o la referencia a una celda. Debe aparecer en la primera columna del intervalo.

  • intervalo -> Es el rango de columnas en el que vamos a buscar nuesto valor de búsqueda. Puede estar en la misma hoja, en otra hoja del libro o, incluso, en otro hoja de cálculo.

  • índice -> Indica la columna en la que están los valores que queremos obtener en la búsqueda. Se expresa como un número entero ordenado, contando desde la primera columna del intervalo.

  • está_ordenado -> Indica si la primera columna en la que se va a buscar (la primera columna del intervalo especificado) está ordenada. Normalmente no ocurre, por lo que lo indicamos como FALSE.

Paso 1. Importa el nuevo dataset

Crea una nueva pestaña/hoja en tu documento y ponle el nombre poblacion_distritos. Importa en ella el CSV de población que acabas de descargar.

  1. Selecciona Archivo > Importar > Subir > Examinar > Abrir

  2. En el cuadro de diálogo Importar archivo elige las opciones adecuadas: Ubicacion de importación > Remplazar la hoja actual, Tipo de separador > Detectar automáticamente y Convertir texto en números, fechas y fórmulas > No.

Paso 2. Unir tablas con BUSCARV()

Inmoviliza la primera fila y observa las columnas. Verás que hay dos columnas de nombre de distrito: distrito_raw, que coincide con el nombre de los distritos en la hoja trabajo y distrito_clean que es un nombre limpio.

Además, la columna id asigna un código numérico a cada distrito. Y el dato que nos interesa está en la columna poblacion.

Para unir las tablas, crea una columna nueva al final de la hoja trabajo y llámala pob_distrito. Recuerda poner el encabezado en otro color para saber que es un campo añadido.

En esta columna es donde vamos a aplicar nuestra función BUSCARV() cuya fórmula se compone del elemento de la columna LAYER que quiero buscar, el intervalo de la hoja poblacion_distritos en el que voy a realizar la búsqueda, el índice o posición de la información que quiero recuperar, el dato de población de la columna poblacion y la indicación de que la primera columna del intervalo no está ordenada.

=BUSCARV(B2;poblacion_distritos!A:D;4;FALSO)

Aplicando esta fórmula en la primera celda pob_distrito y arrastrando hacia abajo, recuperaremos el valor de población de cada distrito.

6.1.3 Repite el ejercicio anterior para limpiar los nombres de los distritos en la columna distrito

Aplica la función BUSCARV() en la primera celda de la columna distrito, indicando como elemento a buscar el primer campo de LAYER, el intervalo de búsqueda distrito_raw:poblacion de la hoja poblacion_distritos, el índice o posición que ocupa distrito_clean y la indicación FALSE de que la primera columna del intervalo no está ordenada.

=BUSCARV(B2;poblacion_distritos!A:D;2;FALSO)

Observa que, respecto al ejercicio anterior, solo hemos cambiado el índice, porque distrito_clean ocupa la posición 2 y poblacion es la cuarta columna de la hoja poblacion_distritos.

6.1.4 ¿Cuál es la tasa de anillos aparcabici por 1.000 habitantes en cada distrito de Sevilla? ¿Qué diferencias encuentras?

Recuerda que en aros_aparcabici_distrito calculamos la columna aros_distrito como la tasa de aros por aparcabici. Pero esta no es una buena medida para comparar los distritos entre sí.

Calcula la tasa usando BUSCARV() en aros_aparcabicis_distrito

En aros_aparcabicis_distrito crea una nueva columna que se llame pob_distrito para traer a esta tabla la población de cada distrito desde poblacion_distritos

👀 OJO. Ahora, nuestra columna de referencia ya son los distritos limpios, por lo que el intervalo de búsqueda debe ser distrito_clean:poblacion. Esto también cambiará el índice que ocupa el dato de población.

=BUSCARV(A2;poblacion_distritos!B:D;3;FALSE)

A continuación, crea la columna aros_1000_hab y escribe la fórmula para calcular la tasa:

(SUM de aros / pob_distrito)*1000

Con esta solución, tendrás que copiar los datos a una nueva hoja para reordenar las columnas por aros_1000_hab y poder sacar conclusiones.

Observa que Casco Antiguo y Nervión siguen siendo los dos distritos que más aros aparcabicis tienen, tanto en términos absolutos como en tasa por habitante. En cambio, Los Remedios, con tan solo 188 aros, tiene la tercera tasa más alta: 7,39 aros por cada 1.000 vecinos.

Está por encima de Este - Alcosa - Torreblanca, que pese a ser el distrito más poblado, se conforma con una tasa de 3,54 aros por cada 1.000 habitantes.

Calcula la tasa usando la opción Campo calculado de la tabla dinámica aros_aparcabicis_distrito

Para aplicar esta solución, lo primero que debes hacer es renombrar la columna aros de la hoja trabajo, ya que los campos calculados no distinguen entre mayúsculas y minúsculas, por lo que no debe haber dos columnas con el mismo nombre.

😵‍💫 Este cambio no destruirá tu trabajo previo, porque Google Spreadsheets es listo y renombra la columna en todas partes.

Como vamos a añadir una nueva columna a la tabla dinámica, tenemos que hacer sitio para que crezca. Basta con añadir una nueva columna a la derecha de la última columna de la tabla dinámica en aros_aparcabicis_distrito

Ahora abre el editor de la tabla dinámica y añade un Campo calculado en Valores. Configura el campo Sumar por como Personalizado y Mostrar como como Predeterminado.

Crea una fórmula para calcular la tasa en el campo Fórmula. Tenemos que dividir la suma de aros de cada distrito entre la población de ese distrito y multiplicar el resultado por 1.000. Para ello, usaremos las funciones SUMA() y UNIQUE(), ya que queremos usar el dato de población una sola vez y no su agregado.

=(SUMA(aros_clean)/unique(pob_distrito))*1000

Recuerda que pudes renombrar la columna de campo calculado como aros_1000_hab haciendo doble clic en el encabezado.

Para reordenar los datos de la tabla dinámica y sacar conclusiones, basta con elegir Orden > Descendente y Ordenar por > aros_1000_hab en el apartado Filas del Editor de tablas dinámicas.

Observa que Casco Antiguo y Nervión siguen siendo los dos distritos que más aros aparcabicis tienen, tanto en términos absolutos como en tasa por habitante. En cambio, Los Remedios, con tan solo 188 aros, tiene la tercera tasa más alta: 7,39 aros por cada 1.000 vecinos.

Está por encima de Este - Alcosa - Torreblanca, que pese a ser el distrito más poblado, se conforma con una tasa de 3,54 aros por cada 1.000 habitantes.

Las dos opciones son equivalentes y deberían ofrecer el mismo resultado. Utiliza la que te resulte más cómoda.

7 🧠 Tu turno (II)

7.1 😎 Caso práctico. Pisos turísticos

7.1.1 Descarga los datos

Descarga los datos de viviendas turísticas y población por provincias en España procedentes de la web del INE. Vamos a analizar la presión de este tipo de alojamientos en cada comunidad autónoma y provincia de España.

🔗 viviendas_turisticas_es_2024.csv 🔗 poblacion_provincias_es.csv

7.1.2 Importa los dos archivos CSV en una nueva hoja de cálculo y revisa que tengan los formatos correctos

Recuerda que la hoja de datos originales debe llevar el nombre raw y el diccionario de población puedes llamarlo poblacion_provincias.

  1. Importa los datos dede Archivo > Importar > Subir > Examinar > Abrir.

  2. En el cuadro de diálogo Importar archivo elige las opciones adecuadas: Ubicacion de importación > Remplazar la hoja actual, Tipo de separador > Detectar automáticamente y Convertir texto en números, fechas y fórmulas > No.

  3. Renombra la hoja en la que importes los datos de viviendas_turisticas_es_2024.csv como raw, crea un duplicado y llámalo trabajo.

  4. Renombra la hoja en la que importes los datos de poblacion_provincias_es.csv como poblacion_provincias.

  5. Revisa el formato de los datos. A veces, las columnas numéricas se importan con un formato incorrecto. En este caso, aparece un apostrofe oculto (’) delante del número. La forma más fácil de resolver este problema es multiplicar los valores por 1 en la columna contigua. Recuerda nombrarlas como viviendas_turisticas_clean y plazas_clean, en el caso de la hoja trabajo, y poblacion_clean, en la hoja poblacion.

  6. No olvides poner los encabezados de las nuevas columnas en otro color para indicar que no forman parte de los datos originales.

7.1.3 Lleva los datos de poblacion_clean de la hoja poblacion a trabajo

Puedes usar la función BUSCARV() para asegurarte de que no se desordenan los datos.

Para unir las tablas, crea una columna nueva al final de la hoja trabajo y llámala pob_provincia. Recuerda poner el encabezado en otro color para saber que es un campo añadido.

En esta columna es donde vamos a aplicar nuestra función BUSCARV() cuya fórmula se compone del elemento de la columna provincia que quiero buscar, el intervalo de la hoja poblacion_provincias en el que voy a realizar la búsqueda, el índice o posición de la información que quiero recuperar. (el dato de población de la columna poblacion_clean) y la indicación FALSE de que la primera columna del intervalo no está ordenada.

=BUSCARV(B2;poblacion_provincias!B:D;3;FALSO)

👀 OJO. No incluyas la columna ccaa en tu intervalo.

Aplicando esta fórmula en la primera celda pob_provincia y arrastrando hacia abajo, recuperaremos el valor de población de cada provincia.

7.1.4 Observa las variables viviendas_turisticas_clean y plazas_clean. ¿Cual es más adecuada para analizar la presión turística en cada comunidad autónoma? ¿Por qué?

La variable viviendas_turisticas_clean representa el número de viviendas turísticas en cada provincia mientras que plazas_clean indica el número de personas que pueden pernoctar en estas viviendas.

Trabajaremos con plazas_clean. Como vamos a calcular una tasa por población, es preferible calcular personas respecto a personas que casas respecto a personas.

7.1.5 ¿Cuál es la comunidad autónoma con la mayor presión de plazas en viviendas turísticas por habitante en España?

Usa una tabla dinámica sobre la hoja trabajo para agrupar los datos de plazas_clean y pob_provincia por ccaa.

Para crear una tabla dinámica, selecciona toda la hoja de datos marcando el vértice superior hizquierdo de la tabla (a la izquierda de la columna A y encima de la fila 1). Esto asegura que todos nuestros datos estén dentro de la tabla dinámica.

A continuación elige Insertar > Tabla dinámica.

En el cuadro de diálogo Crear tabla dinámica verás varias cosas:

  • El Intervalo de datos con el que va a trabajar la tabla dinámica. Si has seleccionado toda la hoja, debería ser trabajo!1:1000.
  • También podrás elegir dónde quieres insertar la hoja. Por norma general, siempre elegimos Nueva hoja.

Al pulsar en Crear, Google Spreadsheet creará una hoja nueva, Tabla dinámica 1, en la que verás una tabla azul vacía. También aparece un panel lateral que nos servirá para trabajar con la tabla dinámica.

Renombra la hoja Tabla dinámica 1 como plazas_ccaa para poder identificarla en el futuro.

  1. Añade la columna ccaa como Filas

  2. Añade la columna plazas_clean como Valores y selecciona Sumar por > SUM para sumar los datos de las provincias de cada cumunidad.

  3. Repite el paso aterior con la columna pob_provincia.

  4. Para evitar que la tabla dinámica muestre las columnas vacías, añade cualquier columna al campo Filtros y desmarca la opción (Vacío).

  5. Añade un Campo calculado en el apartado Valores y plantea la fórmula de tasa por habitante: =(plazas/pob_provincia)*1000.

  6. En este caso, como estamos agrupando datos por comunidad autónoma a partir de datos por provincia, la opción Sumar por debe mantenerse en SUM.

  7. Renombra la columna del Campo calculado como plazas_1000_hab

  8. Ordena los datos para encontrar fácilmente la respuesta: selecciona Orden > Descendente y Ordenar por > Splazas_1000_hab en las opciones de Filas.

Este análisis revela que Baleares, Canarias y Cantabria son las comunidades autónomas con mayor tasa de plazas en viviendas turísticas por cada 1.000 habitantes: 130,3; 99,9 y 67, respectivamente.

7.1.6 ¿Qué gráfico es más adecuado para representar estos datos? ¿Por qué?

📊 Elige una de las opciones y crea un gráfico.

Escribe el razonamiento de tu elección en el apartado Descripción alternativa para lectores de pantalla del panel Anotar de Datawrapper.

¡Cuidado!

Ten en cuenta que no debes incluir la suma total de aparcabicis en tu gráfico, ya que eso distorsionará la escala de las barras.

Gráfico de barras

Elige la opción Crear nuevo... > Gráfico.

Paso 1. Cargar datos

  • En la ventana Cargar datos nos mantendremos en la opción por defecto: Copiar y pegar tabla de datos.

  • Ahora copiaremos nuestra tabla de datos mediante el atajo CTR. + C con cuidado de no seleccionar la fila Suama total.

  • Pegaremos la tabla que acabamos de copiar con CTR. + V donde pone Pega los datos que has copiado aquí....

  • Por último, pulsaremos en Continuar para avanzar al siguiente paso.

Paso 2. Verificar y describir

  • Revisa el formato de las columnas: negro cuando es texto y azul cuando es número.

  • Para que Datawrapper muestre un punto como separador de los miles (1.000), elige español (es-AR) en Configuración regional del resultado.

  • Avanza al siguiente paso pulsando Continuar.

Paso 3. Visualizar

En este apartado es en el que elegimos el tipo de gráfico que vamos a usar y donde aplicamos los estilos.

  • Por defecto, Datawrapper intenta encajar nuestros datos siempre en un gráfico de líneas. Elige la opción Gráfico de barras en Tipo de gráfico y avanza a la pestaña Mejorar.

  • Selecciona la columna que contiene los datos que quieres representar en el primer desplegable si no han aparecido por defecto.

  • Si las barras no aparecen ordenadas, pueder forzar el orden en el apartado Clasificación y agrupación > Organizar barras del panel Mejorar.

  • En la pestaña anotar, introduce un título para tu gráfico. Por ejemplo, “Plazas en viviendas turísticas por 1.000 habitantes en cada comunidad”.

  • Indica la fuente de tus datos, “INE”, en el campo Fuente de datos.

  • Incluye una firma para tu gráfico en Producido por.

  • En la pestaña Diseño puedes activar o desactivar la descarga de datos o aplicar un tema para tu gráfico, entre otras opciones.

  • Cuando hayas acabado de diseñar tu gráfico, avanza en el botón Continuar.

Paso 4. Publicar e integrar

Este apartado es el que permite publicar tu gráfico para compartirlo con el resto del mundo. Obtendrás tanto un enlace a la visualización como un código de inserción.

Mapa de coropletas

Elige la opción Crear nuevo... > Mapa.

Esto te llevará a una página en la que elegir el tipo de mapa que quieres generar: Mapa coroplético.

Paso 1. Selecciona tu mapa

En este paso, debes elegir el mapa con la división territorial en la que están agrupados tus datos. En este caso, necesitamos un mapa de España por comunidades autónomas.

Cuando lo hayas encontrado, selecciónalo y pulsa Continuar.

Paso 2. Añade tus datos

  • En la ventana Añade tus datos, busca la pestaña Cargar. Copia tu tabla de datos con CTR. + C con cuidado de no seleccionar la fila Suama total y pégala donde pone Pega tus datos aquí o directamente en la tabla con con CTR. + V.

  • Luego, pulsa en la flecha que ha aparecido para trasladar tus datos a la tabla y avanza a la pestaña Coincidir.

  • En Clave coincidente, elige cuál de los nombres que hay guardados dentro del mapa coincide mejor con tu columna de nombres de comunidad autónoma. En este caso, Nombres (Español).

  • En Seleccionar columna para Nombres (Español), elige cuál es la columna de nombres en tus datos: ccaa.

  • En Seleccionar columna para Values, elige cuáles son los valores que pintarán el mapa. En este caso, plazas_1000_hab.

  • En la pestaña Comprobar aparecerán los posibles errores de coincidencia, que también aparecerán marcados en rojo en la tabla de datos. Basta con desplegar las opciones de cada celda en rojo y asignarle la correspondencia correcta.

  • Cuando todo esté correcto, pulsa Continuar para avanzar al siguiente paso.

Paso 3. Visualizar

En este apartado es en el que elegimos los estilos del gráfico.

  • En la pestaña anotar, introduce un título para tu gráfico. Por ejemplo, “Plazas en viviendas turísticas por 1.000 habitantes en cada comunidad”.

  • Indica la fuente de tus datos, “INE”, en el campo Fuente de datos.

  • Incluye una firma para tu gráfico en Producido por.

  • Activa el botón Mostrar etiquetas en Etiquetas del mapa y elige la opción Tipo > por columna. Luego, selecciona tu columna de datos para que aparezca el valor de cada comunidad sobre el mapa.

  • En la pestaña Diseño puedes activar o desactivar la descarga de datos o aplicar un tema para tu gráfico, entre otras opciones.

  • Cuando hayas acabado de diseñar tu gráfico, avanza en el botón Continuar.

Paso 4. Publicar e integrar

Este apartado es el que permite publicar tu gráfico para compartirlo con el resto del mundo. Obtendrás tanto un enlace a la visualización como un código de inserción.

8 🔢 Tasas y valores relativos (II)

8.1 🏠 Caso práctico. Compraventa de vivienda en España (I)

Responde a las siguientes preguntas usando los datos de compraventa de viviendas del Consejo General del Notariado disponibles en la siguiente tabla:

AÑO AND ARA AST IB IC CAN CyL CLM CAT CV EXT GAL MAD MUR NAV PV LR TOTAL
2015 78029 11333 6519 13089 20325 4632 18352 14327 61261 60040 6335 14664 57802 12820 4871 16829 3127 404355
2016 84896 11697 7611 16184 22620 5257 20553 16332 75493 68380 7226 15726 67719 13630 5174 19109 3258 460865
2017 98064 14006 9234 18531 26798 6649 23042 20744 86062 79769 8315 17610 81368 15595 6047 21047 3747 536628
2018 112580 15597 10235 17634 25582 7098 26093 23661 90139 89398 9317 19786 85736 18250 7179 23413 4699 586397
2019 111171 15410 10158 15946 25208 7268 25962 24251 89661 85475 9716 20444 79086 19561 6570 23777 4382 574046
2020 95152 13634 10249 11674 17221 6929 24110 21543 74906 70275 9458 19425 67552 17143 6377 20744 3815 490207
2021 136696 17531 13036 17804 24770 9766 32934 29747 104331 99712 12236 25159 92236 23828 8083 25502 5151 678522
2022 144391 18768 13915 19151 31499 9427 34653 30658 110648 113778 12707 25995 90941 25463 8102 26086 5169 721351
2023 127185 17121 14103 15445 26395 8632 32119 29573 96619 104869 11660 24016 76276 24349 7750 22033 4416 642561
2024 139591 18789 16961 15532 27280 10228 36536 34516 107826 113980 13449 28253 87494 26604 7726 25918 5501 716183

8.1.1 Escrapea los datos usando la extensión Table Capture de Google Chrome

Recuerda que puedes descargar e instalar Table Capture desde la Chrome Web Store. Esta aplicación analiza la web en busca de estructuras tipo tabla para extraerlas.

Una vez instalado Table Capture, fija la extensión en la barra de herramientas del navegador.

Selecciona el icono con forma de pieza de puzle, busca Table Capture y fíjalo con la chinchetas.

Cuando veas el icono en la barra de herramientas, púlsado. La extensión mostrará un desplegable como este, en el que indica cuántas tablas ha encontrado y su tamaño (filas x columnas).

Si pones el ratón encima de una de las tablas, la página hará scroll hasta ella para que puedas comprobar que es la correcta.

Luego, solo tendras que seleccionar el icono del partapapeles para copiar los datos o exportarlos directamente a una hoja de cálculo.

IMPORTANTE: con cualquiera de las dos opciones, tendrás que hacer CTR. + V para pegarlos en la hoja de destino.

Renombra la hoja donde has pegado los datos como raw para no perderlos.

8.1.2 Pivota los datos y limpia las columnas para trabajar con tablas dinámicas

Como las tablas dinámicas solo funcionan si los datos están en vertical (una columna, un tipo de dato), tendrás que usar el comando Pegado especial > Traspuesto para crear tu hoja trabajo.

Google Spreadsheet nos permite copiar y pegar datos cambiando su distribución. Para generar una hoja de trabajo con los datos en vertical, primero tenemos que decidir cuántas columnas necesitamos:

  • ccaa -> Columna con el nombre de la comunidad autónoma

  • year -> Columna con el año al que hace referencia el dato

  • viviendas -> Columna con el número total de viviendas

Una forma de llegar a este resultado es usando varias veces la opción Pegado especial > Traspuesto.

  1. Crea un duplicado temporal de la hoja raw y añade una hoja nueva trabajo.

  2. Copia el encabezado y la primera fila de datos de la hoja temporal con CTR. + C.

  3. Colócate en la primera celda de la hoja trabajo y selecciona CLIC DERECHO > Pegado Especial > Taspuesto. Esto generará una columna con las comunidades autónomas y otra con el dato de viviendas.

  4. Escribe el año en la tercera columna de la tabla y extiéndelo hacia abajo haciendo doble clic en el punto de la esquina inferior derecha de la celda.

  5. Sustituye la primera fila por los encabezados de las nuevas columnas (ccaa, viviendas, year) e inmovilízala.

  6. Vuelve a la hoja temporal, selecciona la fila con el primer año y bórrala haciendo CLIC DERECHO > Borrar fila.

  7. Vuelve a copiar el encabezado y la fila con el siguiente año y pégalo, debajo de los datos que has trasladado antes, en la hoja trabajo. Recuerda usar CLIC DERECHO > Pegado Especial > Taspuesto.

  8. Añade el nuevo año en la columna year y elimina la primera fila del nuevo conjunto de datos.

Repite este proceso tantas veces como años hay en tu tabla.

⚠️ CUIDADO Vigila no dejar ninguna fila de año entre medias de tus datos (paso 8).

Elimina la hoja temporal cuando hayas terminado.

8.1.3 ¿Cuánto ha aumentado la compraventa de vivienda a nivel nacional en la última década?

Expresa el resultado en términos absolutos y relativos empleando una tabla dinámica.

Recuerda que la fórumula para calcular una variación porcentual es:

\[\text{% Variación} = \left( \frac{\text{nuevo} - \text{antiguo}}{\text{antiguo}} \right) \times 100\]

¡Cuidado!

Al usar tablas dinámicas o hacer operaciones, recuerda que tu fuente de datos incluye los valores totales de España.

Inserta una tabla dinámica en la que incluyas ccaa como Filas, year como Columnas y viviendas como valor. Luego, añade Filtros para mostrar solo el dato TOTAL para los años 2015 y 2024.

Desmarca todos los campos Mostrar totales y renombra la tabla dinámica como compraventa_es.

Después de filtrar los datos, añade una columna anexa a la tabla dinámica variacion_abs y haz una resta: el dato actual (2024) menos el dato previo (2015).

  • En 2024 se han vendido 311.828 viviendas más que hace diez años, según el Consejo General del Notariado.

Partiendo del cálculo de variación absoluta, añade otro columna nueva variacion_por y aplica la fórmula de la variación:

\[\text{% Variación} = \left( \frac{\text{nuevo} - \text{antiguo}}{\text{antiguo}} \right) \times 100\] - La compraventa de vivienda en España ha aumentado un 77,1% en la última década, según datos del Consejo General del Notariado.

8.1.4 ¿Cuál es la comunidad autónoma con el mayor incremento en términos relativos de la última década?

Repite el ejercicio anterior, filtrando solo las comunidades autónomas.

Inserta una tabla dinámica en la que incluyas ccaa como Filas, year como Columnas y viviendas como valor. Luego, añade Filtros para ocultar las celdas sin datos, (Vacío), y el TOTAL; y para ver solo los años 2015 y 2024.

Desmarca todos los campos Mostrar totales y renombra la tabla dinámica como compraventa_ccaa.

Después de filtrar los datos, añade una columna anexa a la tabla dinámica variacion_por y aplica la fórmula de la variación:

\[\text{% Variación} = \left( \frac{\text{nuevo} - \text{antiguo}}{\text{antiguo}} \right) \times 100\] - Asturias es la comunidad autónoma con el mayor incremento de la compravente desde 2015. Ha crecido un 160,2%, pasando de 6.519 operaciones a 16.961.

8.1.5 Haz un gráfico de slopes (pendientes) que muestre el valor final y el incremento porcentual en las etiquetas

Partiendo de la tabla dinámica anterior…

  • Crea un diccionario de comunidades autónomas y traslada los nombres limpios a la columna ccaa_clean con la función BUSCARV().

  • Utiliza la función CONCATENAR() en la columna etiquetas para crear una cadena de texto.

  • Pivota los datos de la tabla dinámica con CLIC DERECHO > Pegado Especial > Taspuesto

CONCATENAR()

Ten en cuenta que la función concatenar permite combinar texto entrecomillado y referencias a celdas concretas separando cada argumento con punto y coma.

A veces, será necesario redondear los decimales de las cifras con REDONDEAR().

Copia la columna ccaa y pégala en una nueva hoja a la que llamaremos diccionario. Al lado, crea la columna ccaa_clean y escribe los nombres de las comunidades tal y como quieras que aparezcan en el gráfico.

Vuelve a la tabla dinámica compraventa_ccaa y añade una columna ccaa_clean nueva por delante de la tabla dinámica: CLIC DERECHO > Insertar 1 columna a la izquierda.

Aplica la función BUSCARV() para trasladar los datos: =BUSCARV(B3;diccionario!A:B;2;FALSO).

Junto a la columna variacion_por añade la columna etiquetas y aplica la función CONCATENAR(): =CONCATENAR(A3;" ";REDONDEAR(E3;1);"%")

En una nueva hoja grafico_variacion, copia y pega la tabla dinámica llevando solo los valores CTR. + SHIFT + V. Luego, limpia y reordena las columnas:

  • Elimina la primera fila, ya que tiene celdas vacías, e inmoviliza los encabezados

  • Arrastra la columna etiquetas delante de la columna 2015

  • Elimina todas las columnas sobrantes, menos etiquetas, 2015 y 2024.

Lleva los datos de grafico_variacion a Datawrapper y crea un gráfico de líneas:

  • Pivota los datos con Intercambiar filas y columnas (transponer) en la pantalla Verificar y describir para tener tantas columnas como comunidades autónomas.

  • Escribe los años 2015 y 2024 en Eje horizontal > Referencias personalizadas y selecciona Formato de fecha > 2015, 2016.

  • Selecciona Formato numérico > 10,000 en Eje vertical

  • Selecciona Nada en el apartado Líneas y elige las etiquetas de las CCAA que quieres destacar en Visualizar > Mejorar > Personalizar líneas > Label > Junto a la línea.

  • Elige un color para las comunidades que quieres destacar y usa el gris para el resto.

  • Aumenta el Margen de la etiqueta en Aspecto hasta que las etiquetas del gráfico se lean bien.

  • En Anotar > Resaltar rango, añade dos líneas verticales para marcar 2015 y 2024.

  • Completa los campos Título, Fuente de datos y Producido por en Anotar.

El gráfico de pendientes o slopes muestra tanto el cambio absoluto de los valores, va del punto A al punto B, como su variación relativa, a través de la pendiente de la recta que se forma al unir los puntos.

8.1.6 Duplica el gráfico de slopes y transfórmalo en uno de flechas

  • Vuelve a pivotar los datos con el botón Intercambiar filas y columnas (transponer) en la pantalla Verificar y describir para tener cada comunidad autónoma en una fila.

  • En Visualizar, selecciona el Tipo de gráfico > Gráfico de flechas.

  • Ve a los controles de Mejorar y pon el Inicio de la flecha en 2015 y el Fin de la flecha en 2024.

  • En Etiquetas, activa Mostrar valores y selecciona Ambos.

  • Ordena los datos en Clasificación y agrupación > Ordenar filas > Diferencia y elige Orden inverso para facilitar la lectura.

  • Borra las anotaciones de línea que pusimos en el gráfico original en Resaltar rango.

8.1.7 ¿En qué años decreció el número de operaciones en términos interanuales?

Calcula la variación interanual con una tabla dinámica y la fórmula de la variación porcentual

  • Crea una nueva tabla dinámica variacion_interanual a partir de la hoja trabajo

  • Añade la columna year como Filas y la columna viviendas como Valores. Pon la columna ccaa en Filtros y selecciona solo el TOTAL.

  • Añade la columna var_interanual al lado de la tabla dinámica y aplica la fórmula de la variación porcentual de forma que puedas arrastrarla hacia abajo.

IMPORTANTE. Como la variación se calcula de un año respecto al anterior, el primer año de tu serie no tendrá valor.

  • Las operaciones de compraventa disminuyeron en 2008, 2009, 2011, 2013, 2019, 2020 y 2023 respecto al año anterior.

Elgie el mejor gráfico para representar esa variación y justifica tu respuesta. ¿Observas algún patrón o tendencia? ¿Hay algún valor significativo que puedas destacar en tu historia?

Una buena solución es hacer un gráfico de columnas, ya que mostrará columnas hacia arriba, cuando las operaciones de compraventa crecen, y hacia abajo, cuando decrecen. Además, las columnas se mostrarán ordenadas a lo largo de un eje horizontal (x) de años, por lo que puede observarse una evolución.

Elige dos colores: uno para los valores positivos y otro para los negativos.

A veces, como en este caso, los datos no muestran un patrón. Pero la reducción de 2008 (-33,8%) y el incremento de 2022 (+38,4%) coincidieron con el estallido de la burbuja inmobiliaria, en el primer caso, y con el repunte de los tipos de interés, en el segundo.

9 🧠 Tu turno (III)

9.1 🏠 Caso práctico. Compraventa de vivienda en España (II)

Responde a las siguientes preguntas a partir de los datos de precio medio del metro cuadrado del Consejo General del Notariado.

AÑO AND ARA AST IB IC CAN CyL CLM CAT CV EXT GAL MAD MUR NAV PV LR TOTAL
2019 1232 1044 1036 2453 1470 1157 785 665 1770 1120 584 961 2239 879 1376 2319 1026 1437
2020 1227 1018 1101 2615 1487 1165 805 674 1796 1104 601 934 2209 849 1334 2358 990 1431
2021 1326 1014 1080 2986 1604 1208 799 704 1848 1166 603 986 2369 887 1435 2376 932 1507
2022 1441 1107 1130 3198 1770 1298 848 693 1975 1286 606 1005 2653 985 1440 2513 939 1615
2023 1487 1103 1152 3185 1821 1352 850 747 2012 1348 617 1030 2772 1004 1636 2602 1009 1640
2024 1608 1183 1187 3671 1928 1500 904 762 2125 1455 641 1131 3009 1040 1622 2688 1059 1753

9.1.1 Escrapea los datos y transfórmalos a formato vertical

Usa la opción CLIC DERECHO > Pegado Especial > Taspuesto

Después de escrapear los datos con Table Capture puedes generar una hoja de trabajo con los datos en vertical, primero tenemos que decidir cuántas columnas necesitamos:

  • ccaa -> Columna con el nombre de la comunidad autónoma

  • year -> Columna con el año al que hace referencia el dato

  • precio_m2 -> Columna con el precio por metro cuadrado en euros

Una forma de llegar a este resultado es usando varias veces la opción Pegado especial > Traspuesto.

  1. Crea un duplicado temporal de la hoja raw y añade una hoja nueva trabajo.

  2. Copia el encabezado y la primera fila de datos de la hoja temporal con CTR. + C.

  3. Colócate en la primera celda de la hoja trabajo y selecciona CLIC DERECHO > Pegado Especial > Taspuesto. Esto generará una columna con las comunidades autónomas y otra con el dato de viviendas.

  4. Escribe el año en la tercera columna de la tabla y extiéndelo hacia abajo haciendo doble clic en el punto de la esquina inferior derecha de la celda.

  5. Sustituye la primera fila por los encabezados de las nuevas columnas (ccaa, precio_m2, year) e inmovilízala.

  6. Vuelve a la hoja temporal, selecciona la fila con el primer año y bórrala haciendo CLIC DERECHO > Borrar fila.

  7. Vuelve a copiar el encabezado y la fila con el siguiente año y pégalo, debajo de los datos que has trasladado antes, en la hoja trabajo. Recuerda usar CLIC DERECHO > Pegado Especial > Taspuesto.

  8. Añade el nuevo año en la columna year y elimina la primera fila del nuevo conjunto de datos.

Repite este proceso tantas veces como años hay en tu tabla.

⚠️ CUIDADO Vigila no dejar ninguna fila de año entre medias de tus datos (paso 8).

Elimina la hoja temporal cuando hayas terminado.

9.1.2 ¿Cuántas comunidades tienen un precio medio del metro cuadrado por encima del precio medio nacional?

Observa tus datos raw. No necesitas crear una tabla dinámica para responder a esta pregunta.

Basta con mirar la última fila de la tabla raw e identificar qué valores están por encima de 1.753 euros.

Una opción rápida, es trasponer los datos de la fila de 2024 con CLIC DERECHO > Pegado Especial > Taspuesto en una nueva hoja precios_2024 y reordenarla por la columna precio_m2.

También puedes aplicar filtros en la hoja trabajo para ver solo los datos de 2024 ordenados de mayor a menor.

  • Baleares (3.671 €), Madrid (3.009 €), País Vasco (2.688 €), Cataluña (2.125) y Canarias (1.928 €) superan el precio medio del conjunto de España.

9.1.3 ¿Cuál es la comunidad con la mayor subida relativa del precio por metro cuadrado de la vivienda después de la pandemia?

Calcula la variación porcentual de 2024 respecto a 2019.

Crea una tabla dinámica a partir de la hoja trabajo, colocando ccaa en Filas, year en Columnas y precio_m2 en valores. Además, añade year a Filtros para ver solo los datos de 2019 y 2024.

Después, aplica en una celda junto a la tabla dinámica la ecuación de la variación porcentual:

\[\text{% Variación} = \left( \frac{\text{nuevo} - \text{antiguo}}{\text{antiguo}} \right) \times 100\]

Tu fórmula debería ser parecida a esta =((C3-B3)/B3)*100

  • Baleares es la comunidad autónoma con el mayor incremento respecto a antes de la pandemia. El precio ha subido un 49,7%, de los 2.453 euros a los 3.671.

¿Qué gráfico serviría para representar estos incrementos tanto de forma absoluta como relativa? ¿Qué datos son necesarios? Haz la visualización en Datawrapper

El gráfico de slopes permite mostrar los incrementos absolutos (en euros) y relativos (en %).

Crea un diccionario con las columnas ccaa y ccaa_clean para escribir los y escribe los nombres de las comunidades tal y como quieras que aparezcan en el gráfico.

Vuelve a la tabla dinámica compraventa_ccaa y añade una columna ccaa_clean nueva por delante de la tabla dinámica: CLIC DERECHO > Insertar 1 columna a la izquierda.

Aplica la función BUSCARV() para trasladar los datos: =BUSCARV(B3;diccionario!A:B;2;FALSO).

Junto a la columna variacion_por añade la columna etiquetas y aplica la función CONCATENAR(): =CONCATENAR(A3;" ";REDONDEAR(E3;1);"%")

En una nueva hoja grafico_variacion, copia y pega la tabla dinámica llevando solo los valores CTR. + SHIFT + V. Luego, limpia y reordena las columnas:

  • Elimina la primera fila, ya que tiene celdas vacías, e inmoviliza los encabezados.

  • Arrastra la columna etiquetas delante de la columna 2019.

  • Elimina todas las columnas sobrantes, menos etiquetas, 2019 y 2024.

Lleva los datos de grafico_variacion a Datawrapper y crea un gráfico de líneas:

  • Pivota los datos con Intercambiar filas y columnas (transponer) en la pantalla Verificar y describir para tener tantas columnas como comunidades autónomas.

  • Escribe los años 2019 y 2024 en Eje horizontal > Referencias personalizadas y selecciona Formato de fecha > 2015, 2016.

  • Selecciona Formato numérico > 10,000 en Eje vertical

  • Selecciona Nada en el apartado Líneas y elige las etiquetas de las CCAA que quieres destacar en Visualizar > Mejorar > Personalizar líneas > Label > Junto a la línea.

  • Elige un color para las comunidades que quieres destacar y usa el gris para el resto.

  • Aumenta el Margen de la etiqueta en Aspecto hasta que las etiquetas del gráfico se lean bien.

  • En Anotar > Resaltar rango, añade dos líneas verticales para marcar 2015 y 2024.

  • Completa los campos Título, Fuente de datos y Producido por en Anotar.

El gráfico de flechas permite mostrar los incrementos absolutos (en euros) y relativos (en %), con la longitud de la flecha.

Crea un diccionario con las columnas ccaa y ccaa_clean para escribir los y escribe los nombres de las comunidades tal y como quieras que aparezcan en el gráfico.

Vuelve a la tabla dinámica compraventa_ccaa y añade una columna ccaa_clean nueva por delante de la tabla dinámica: CLIC DERECHO > Insertar 1 columna a la izquierda.

Aplica la función BUSCARV() para trasladar los datos: =BUSCARV(B3;diccionario!A:B;2;FALSO).

En una nueva hoja grafico_variacion, copia y pega la tabla dinámica llevando solo los valores CTR. + SHIFT + V. Luego, limpia y reordena las columnas:

  • Elimina la primera fila, ya que tiene celdas vacías, e inmoviliza los encabezados.

  • Arrastra la columna ccaa_clean delante de la columna 2019.

  • Elimina todas las columnas sobrantes, menos ccaa_clean, 2019 y 2024.

Crea un gráfico nuevo en Datawrapper y lleva tus datos a la pantalla Verificar y describir. Debes tener cada comunidad autónoma en una fila.

  • En Visualizar, selecciona el Tipo de gráfico > Gráfico de flechas.

  • Ve a los controles de Mejorar y pon el Inicio de la flecha en 2019 y el Fin de la flecha en 2024.

  • En Etiquetas, activa Mostrar valores y selecciona % de cambio.

  • También puedes activar la opción Etiquetar la primera flecha para mostrar el año de inicio y el de fin.

  • Desplaza el eje horizontal a la parte superior con Eje horizontal > Posición de los valores de referencia > encima

  • Ordena los datos en Clasificación y agrupación > Ordenar filas > % de cambio y elige Orden inverso para facilitar la lectura.

  • Completa los campos Título, Fuente de datos y Producido por en Anotar.

Este formato permite leer el valor inicial y el final con el inicio y el final de la flecha y el porcentaje de cambio como anotación.

9.1.4 ¿En qué año se produjo la mayor subida interanual del precio del metro cuadrado en España?

  • Crea una nueva tabla dinámica variacion_interanual a partir de la hoja trabajo

  • Añade la columna year como Filas y la columna precio_m2 como Valores. Pon la columna ccaa en Filtros y selecciona solo el TOTAL.

  • Añade la columna var_interanual al lado de la tabla dinámica y aplica la fórmula de la variación porcentual de forma que puedas arrastrarla hacia abajo.

IMPORTANTE. Como la variación se calcula de un año respecto al anterior, el primer año de tu serie no tendrá valor.

  • El precio subió todos los años salvo entre 2019 y 2020. La mayor subida se produjo de 2021 a 2022 (7,17%), cuando el precio pasó de 1.507 €/m2 a 1.615 €/m2.

Elgie el gráfico más adecuado para representar este dato y genéralo en Datawrapper

Una buena solución es hacer un gráfico de columnas, ya que mostrará columnas hacia arriba, cuando las operaciones de compraventa crecen, y hacia abajo, cuando decrecen. Además, las columnas se mostrarán ordenadas a lo largo de un eje horizontal (x) de años, por lo que puede observarse una evolución.

Elige dos colores: uno para los valores positivos y otro para los negativos.

10 📊 Mejorar la lectura de un gráfico

Recuerda que debes elegir tu visualización para ponerla al servicio de lo que quieras contar:

Gráfico de línea Gráfico de áreas Gráfico de líneas múltiple
Si solo tienes una variable Si tienes más de una variable y forman parte de un todo Si tienes múltiples variables que no forman un todo pero comparten una unidad de medida
Gráfico de columnas Columnas apiladas / stacked / treemap Mapas de coropletas
Magnitud en el tiempo Un todo y sus partes Considerando la geografía
Diagrama de dispersión Histograma
Mostrar relación entre dos variables Mostrar la distribución de una sola variable o de varias
Diagrama de Sankey Diagrama de cuerdas
Muestra los flujos de un sistema Muestra relaciones ponderadas y flujos entre nodos

11 🧠 Tu turno (IV)

11.1 🫠 Preocupación por el cambio climático y los bulos

Descarga el archivo pew_cambio_climatico_bulos_2022.csv y genera un gráfico en Datawrapper que mejore la siguiente visualización. El gráfico debe permitir comparar al mismo tiempo la diferencia entre la preocupación por el cambio climático y por los bulos en cada país, así como entre los distintos países.

🔗 pew_cambio_climatico_bulos_2022.csv

12 😨 Tabula: cuando los datos vienen en el peor formato posible

A veces, tus datos pueden llegar en formatos que no son muy accesibles, como los PDF. Y lo primero que debes hacer es limpiar esos datos para poder empezar a trabajar con ellos.

Tabula es una aplicación creada por Manuel Aristarán, Mike Tigas, Jeremy B. Merrill y Jason Das con el apoyo de ProPublica, La Nación DATA, Knight-Mozilla OpenNews y The New York Times. Es una herramienta gratuita y de software libre hecha por periodistas para periodistas que sirve para impulsar el periodismo de datos en todo tipo de redacciones.

La aplicación permite extraer los datos de un PDF y convertirlos en CSV o en una hoja de cálculo de Microsoft Excel.

Importante

Tabula solo funciona en PDF basado en texto. No sirve para documentos escaneados.

🔗 Descargar la última versión de Tabula

  1. Importa tu PDF de datos.

  2. Busca la(s) página(s) donde se encuentran tus tablas y selecciónalas dibujando un cuadro alrededor de ellas.

  3. Pulsa Preview & Export Extracted Data. Tabula intentará extraer tus datos y mostrará una preview del resultado.

  4. Comprueba esta muestra para asegurarte de que es correcta o, al menos, de que la herramienta ofrece una selección con la que luego puedes limpiar en Google Spreadsheets.

  5. Si faltan datos o ves algún error, vuelve atrás y ajusta tu selección.

  6. Cuando todo esté correcto, descarga tu CSV e impórtalo en Google Spreadsheets para seguir trabajando.

12.1 ☎️ Caso práctico. Llamadas al 112 durante la dana de Valenci (I)

En plena investigación de la dana que asoló la provincia de Valencia el pasado 29 de octubre de 2024, la Generalitat publicó un listado con todas las llamadas que los valencianos hicieron ese día al teléfono de emergencias 112.

El documento PDF contiene tres anexos con información relevante que se puede abordar desde la perspectiva del periodismo de datos:

  • Anexo I. Evolución del número de llamadas recibidas y el número de incidentes gestionado en 1·1·2 Comunitat Valenciana durante el día 29 de octubre

  • Anexo II. Tabla del primer incidente referido a la afectación a personas en cada uno de los municipios de la provincia de Valencia

  • Anexo III. Tabla del conjunto de los incidentes gestionados en la provincia de Valencia relacionados con la clasificación Fenómeno Natural > Meteorológico. Se incluyen dos listados uno cronológico por hora y un segundo por municipios y horas

12.1.1 Descarga el PDF facilitado por la Generalitat Valenciana

🔗 llamadas_112_valencia.pdf

12.1.2 Sube el PDF a Tabula y descarga el Anexo I

  1. Importa tu PDF de datos.

  2. Busca la(s) página(s) donde se encuentran tus tablas y selecciónalas dibujando un cuadro alrededor de ellas.

  3. Pulsa Preview & Export Extracted Data. Tabula intentará extraer tus datos y mostrará una preview del resultado.

  4. Comprueba esta muestra para asegurarte de que es correcta o, al menos, de que la herramienta ofrece una selección con la que luego puedes limpiar en Google Spreadsheets.

  5. Si faltan datos o ves algún error, vuelve atrás y ajusta tu selección.

  6. Cuando todo esté correcto, descarga tu CSV e impórtalo en Google Spreadsheets para seguir trabajando.

12.1.3 Importa el CSV obtenido con Tabula en Google Spreadsheets

Importa el archivo desde: Archivo > Importar > Subir > (Selecciona o arrastra tu archivo)

  • Ubicación de importación -> Remplazar la hoja actual

  • Tipo de separador -> Detectar automáticamente

  • Convertir texto en número, fechas y formas -> No

12.1.4 Crea las hojas raw y trabajo y termina de limpiar los datos

  1. Renombra la hoja en la que has importado los datos como raw.

  2. Crea un duplicado trabajo de la hoja raw.

  3. Inmoviliza la primera fila para facilitar la visualización.

  4. Revisa los nombres de las columnas para comprobar si describen el contenido.

💡 Consejo: utiliza un color en el encabezado para identificar las columnas de tratamiento de las que contienen los datos originales.

  1. ¿Tienen todas las columnas el formato adecuado? Asegúrate de que la columna Hora es texto. Llamadas Recibidas y Incidentes Gestionados deben ser número con Formato > Número > Automático.

💡 OJO Los números deben quedar sin separador entre los miles: ni comas ni puntos.

Recuerda que, a veces, las columnas numéricas se importan con un formato incorrecto. En este caso, aparece un apostrofe oculto (’) delante del número. La forma más fácil de resolver este problema es multiplicar los valores por 1 en una nueva columna de la hoja trabajo.

12.1.5 Elige el mejor gráfico para representar la variable Llamadas Recibidas

En este caso, lo que más nos va a interesar es detectar el momento en el que se produjo el pico con más llamadas.

Hay dos opciones posibles: una curva o un gráfico de columnas.

En ambos casos, basta con llevar los datos de la hoja trabajo a Datawrapper con CTR. + C y CTR. + V. Luego, recuerda ocultar la columna Incidentes Gestionados.

Alterna entre las vistas de Líneas y Gráfico de columnas en el menú Tipo de gráfico de la pantalla Visualizar. Cuando te hayas decidido por una de estas dos opciones, avanza por los menús Mejorar y Anotar para aplicar estilos al gráfico.

12.1.6 ¿Qué puedes hacer con los datos para crear una curva que muestre el número acumulado de llamadas que se produjeron a lo largo del día?

Ese gráfico nos puede ayudar a responder preguntas como: ¿cuántas llamadas recibió el 112 el 29 de octubre de 2024 en Valencia? ¿Cuántas llamadas se habían recibido antes de que se enviase el mensaje de altera a las 20:11 horas?

Lo que queremos hacer en este gráfico es pasar de los datos horarios que hemos representado en el ejercicio anterior a un dato acumulado. Para ello, basta con sumar al primer valor de la tabla el siguiente de forma consecutiva en una nueva columna.

Crea una columna nueva en tu hoja trabajo que nombraremos como llamadas_acumuladas. En la primera celda de esta columna debes incluir el mismo número que aparezca a en Llamadas Recibidas, ya que ese es el total de llamadas que se habían producido hasta esa hora. Puedes copiarlo directamente o “llamarlo” desde su celda original con una igualdad: =B2.

En la siguiente celda, debes sumar al valor anterior las llamadas que se produjeron durante la siguiente hora, de modo que tu fórmula debería ser algo parecido a =D2+B3.

Si arrastras esta fórmula hasta la última celda de la columna llamadas_acumuladas deberías tener un total de 19.821 llamadas hasta las 23:00 horas.

Estos datos ya pueden llevarse a un gráfico de Datawrapper con un enfoque como: El 112 recibió más de 15.000 llamadas antes de que el CECOPI enviase la alerta por la dana.